论文推荐|汉字层次学习的自由基分析网络
本文简要介绍2020年2月被Pattern Recognition录用发表的论文“Radical Analysis Network for Learning Hierarchies of Chinese Characters”的主要工作。该论文是2018年发表在ICME上的文章的升级版,主要解决了基于偏旁部首的中文汉字建模问题,能够有效解决中文汉字的低频字和集外字识别问题。该论文中介绍的方法获得了自然场景文本行识别竞赛MTWI 2018的冠军,突出了该算法较基于整字建模的中文识别算法的优势。
中文汉字作为全世界使用人数最多的文字,一直以来都是识别研究的热点。然而,汉字因其持有的特色给该识别任务带来了三个难题:1. 汉字文化博大精深,汉字的种类数目十分庞大,常用简体汉字约7000多类,而非常用简体和繁体汉字约十万多类;2.汉字文化历史悠久,有很多古文汉字,且由于采集难度大,这类汉字成了稀缺资源,构成了少量样本识别问题;3.由于网络文化风靡以及汉字固有的象形特性,越来越多的新生汉字不断出现,这类汉字往往由已有的偏旁部首变形组合并构成新鲜的富有特殊意义的汉字,当这类新生汉字出现时往往无法提前采集,所以构成了零样本识别问题。针对这三个问题,文章提出RAN (Radical Analysis Network)网络来进行以偏旁部首为基本单元的汉字识别模型训练,并在由打印体汉字构成的集合上成功验证了可行性。本文进一步提升了RAN模型,并将其在自然场景下的汉字识别任务上进行了实验分析,以及将其扩展到了文本行识别任务上,进一步提高了RAN的实用价值。
Fig.1解释了汉字内部的偏旁部首结构。从Fig.1(a)中可见,汉字内部的偏旁部首结构其本质为一个树形结构,且由于汉字结构的特性,这种树形结构固定为二叉树结构,即每个空间结构仅与两个元素相关。以这个“殿”字为例,其首先由一个左右结构构成,然后左边结构又可进一步拆解为左上包围结构以及更深一层的上下结构,而右边结构可进一步拆解为上下结构。最后,我们遵循深度优先遍历的顺序遍历这个树,就得到了Fig.1(a)下方所示的偏旁部首序列,且与汉字类别之间是一一对应关系,因此识别汉字类别任务可转换成偏旁部首序列生成任务。Fig.1(b)展示了构成汉字的偏旁部首之间的全部10种空间结构。
用偏旁部首序列识别汉字可以从本质上解决汉字识别的三大问题:1.汉字虽然有十万类别,但是偏旁部首总共就500多个,且空间结构总共10个,这样分类类别数大大的缩减了;2.对于少量样本和零样本汉字识别问题,以偏旁部首来建模就能有效解决,因为偏旁部首和基本的空间结构都已在已有的汉字类别当中学到过,所以能做到对低频字和集外字的正常识别。
Fig.2介绍了RAN的基本框架,不同于传统整字方法直接将输入图片进行整字分类,RAN首先用CNN编码器对输入图片提取高维视觉特征,再使用解码器依次解出该汉字的偏旁部首序列,注意到在每次解码时,模型都会使用注意力机制对该汉字进行偏旁部首切分和结构检测,例如在解码图中紫色框和蓝色框的偏旁部首前,需要注意力机制正确的进行偏旁部首切分,在解码绿色框的上下空间结构前,需要注意力机制正确定位到上下两个部首的中间位置。解码出偏旁部首序列后,我们就可从预先定义好的汉字与偏旁部首序列的对应字典里成功将输入与汉字类别对应起来。当我们试图去识别从未见过的新生汉字时,模型也能解码出该汉字图片的偏旁部首序列,为了将新生汉字与类别对应,我们仅需在这个对应字典里添加新的对应关系即可,不需要额外训练模型。
Fig.3介绍了RAN用于文本行识别的基本框架,区别于字符识别,编码器在CNN后接上了双向RNN用于提高上下文编码能力,并且采用多头注意力机制以提高切分准确度,在每个汉字偏旁部首序列之间添加“eoc”作为各序列之间的分隔符。在识别时,依靠“eoc”将各序列分隔开,依次到对应字典里搜索即可匹配上对应的汉字类别,再连接成文本行。
Fig.4所介绍的实验中,训练集由挑选过的汉字类别以宋体图片作为输入,挑选的汉字旨在保证包含全部的偏旁部首,而测试集的17533个中文汉字在训练集里从未出现过,所以说Fig.4介绍了RAN识别集外字的能力。可以看到,当训练集仅有8000汉字时,用DenseNet作为编码器的RAN就能在17533的集外字上达到90%的识别率。
RAN提出使用Image-to-sequence模型来实现基于偏旁部首的汉字识别模型,从根本上解决了汉字类别数目庞大、古文汉字等生僻字带来的少量样本识别问题和网络新生汉字带来的零样本识别问题。 RAN不仅在打印体汉字上得到了验证,同样在自然场景下也得到了进一步验证,且该方法可以成功拓展到文本行识别,说明了该算法的实用性。 论文当中使用的汉字与偏旁部首序列的对应关系已经开源,可便利后续的相关研究。且该方法可直接借鉴到日文、韩文等其他有基本组成部件的字符识别问题上。
RAN-ICME地址:http://staff.ustc.edu.cn/~jundu/Publications/publications/4.pdf RAN-PR地址:https://www.sciencedirect.com/science/article/abs/pii/S0031320320301096
IDS对应字典地址:https://github.com/JianshuZhang/RAN
[1] J. Zhang, Y. Zhu, J. Du, and L. Dai,“Radical analysis network for zero-shot learning in printed Chinese character recognition,” ICME 2018.
[2] T. Yuan, Z. Zhu, K. Xu, C. Li and S. Hu, “Chinese Text in the Wild,” arXiv: 1803.00085.
[3] B. Shi, X. Bai and C. Yao, “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition,” IEEE TPAMI, 2017.
[4] F. Yin, Y. Wu, X. Zhang and C. Liu, “Scene text recognition with sliding convolutional character models,”arXiv: 1709.01727.
原文作者:Jianshu Zhang, Jun Du, Lirong Dai
编排:高 学
审校:连宙辉
发布:金连文
(扫描识别如上二维码加关注)